Страница 3 из 4 Тема, касающаяся сходимости алгоритмов обучения с подкреплением, в которых применяется функциональная аппроксимация, требует чрезвычайно формального освещения. В случае использования аппроксиматоров линейных функций результаты обучения по методу TD неизменно улучшались [338], [1477], [1515], но было показано, что при использовании нелинейных функций обнаруживаются некоторые примеры отсутствия сходимости (для ознакомления с этой темой см. [1515]). В [1172] описан новый тип алгоритма обучения с подкреплением, который сходится при использовании любой формы аппроксиматора функции, при условии, что для наблюдаемых данных может быть найдена аппроксимация с наилучшим соответствием. Методы поиска стратегии вышли на передний план под влиянием исследований Уильямса [1597], который разработал семейство алгоритмов Reinforce. Дальнейшие исследования, описанные в [86], [981] и [1478], позволили усилить и обобщить результаты достижения сходимости в методе поиска стратегии. Алгоритм Pegasus был предложен Энджи и Джорданом [1134], но аналогичные методы изложены в докторской диссертации Ван Роя [1535]. Как упоминалось в этой главе, производительность стохастической стратегии представляет собой непрерывную функцию от ее параметров, что способствует применению методов поиска с учетом градиента. Это — не единственное преимущество указанных методов; в [721] доказано, что стохастические стратегии обычно функционируют в частично наблюдаемых вариантах среды лучше, чем детерминированные стратегии, если те и другие ограничиваются действиями, основанными на текущих результатах восприятия. (Одна из причин этого состоит в том, что стохастическая стратегия с меньшей вероятностью "заходит в тупик', встретив какое-то невидимое препятствие.) Кроме того, в главе 17 было указано, что оптимальные стратегии в частично наблюдаемых задачах MDP представляют собой детерминированные функции от доверительного состояния, а не от текущих результатов восприятия, поэтому можно рассчитывать на получение еще лучших результатов с помощью слежения за доверительным состоянием с использованием методов фильтрации, приведенных в главе 15. К сожалению, пространство доверительных состояний является многомерным и непрерывным, и еще не разработаны эффективные алгоритмы обучения с подкреплением на основе доверительных состояний. Реальные варианты среды также характеризуются невероятной сложностью с точки зрения количества примитивных действий, требуемых для достижения значимых вознаграждений. Например, роботу, играющему в футбол, могут потребоваться сотни тысяч отдельных движений ног для того, чтобы забить мяч. Одним из широко применяемых методов, который первоначально использовался при обучении животных, является так называемый метод формирования вознаграждения (reward shaping). Он предусматривает предоставление агенту дополнительных вознаграждений за то, что он "добивается успехов". Что касается футбола, то такие вознаграждения могут предоставляться за удар по мячу или за отправку мяча в сторону ворот. Подобные вознаграждения позволяют существенно повысить скорость обучения, а сам способ их предоставления является очень простым, но существует опасность того, что агент обучится максимизации таких псевдовознаграждений и не будет стремиться к истинным вознаграждениям; например, многочисленных контактов с мячом можно добиться, стоя рядом с мячом и "совершая колебательные движения". В [1133] показано, что агент все равно будет искать с помощью обучения оптимальную стратегию, при условии, что псевдовознаграждение F(s, a, s' ) удовлетворяет соотношению F(s, a, s' ) =γΦ (s' ) -Φ (s), где Ф — произвольная функция от состояния. Функцию Φ можно составить таким образом, чтобы она отражала все желательные аспекты состояния, такие как достижение подцелей или уменьшение расстояния до целевого состояния.
|